深層学習による舌画像診断：舌から全身の不調がわかる！？ Part1

画像認識 2021年03月31日

3つの要点
✔️ 舌の画像は、伝統的な中国医学(TCM)における診断の問題点である臨床医の経験依存による診断を打破する可能性がある
✔️ 制約付き高分散ニューラルネットワーク(CHDNet)を提案
✔️ 精度91.14%、AUC0.94と、従来の手法よりも高い性能を達成

Tongue Images Classification Based on Constrained High Dispersal Network
written by Dan Meng, Guitao Cao, Ye Duan, Minghua Zhu, Liping Tu, Dong Xu, Jiatuo Xu
(Submitted on 30 Mar 2017)
Comments: Accepted to Evid Based Complement Alternat Med.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Orimemtal Medicine

はじめに

医師の経験に依存する東洋医学の診断を、深層学習アルゴリズムで解決できるのか？また、そのためには何が必要なのでしょうか。

舌を使った診断は、口腔内の健康状態の指標として知られていますが、東洋医学では全身の状態を把握するためにも使われています。つまり、舌の画像を解析することで、特定の病気だけでなく、複数の病気を同時に発見できる可能性があります。そこで、医師の経験を特徴として抽出し、モデルを学習することで、非言語的な知識を普遍化するディープラーニングの導入が注目されています。一方で、これらの舌画像には冗長性があり、画像から全体の特徴を把握することができないという問題が指摘されています。

本研究では高分散化と局所的な応答の正規化を行うことで、マルチスケールの特徴分析を可能にしました。提案手法は高レベルの特徴を学習し、より多くの分類情報を提供します。その結果、高い分類性能を達成しています。

東洋医学・中国伝統医学（TCM）と舌診とは？

東洋医学とは、漢方薬や鍼灸を中心とした東洋由来の伝統医学のことです。西洋医学が体の悪い部分を直接薬や手術で治すのに対し、東洋医学は鍼灸や漢方などの方法で、体の悪い部分ではなく体全体の状態を見て、治すことを目的としています。また、倦怠感や抵抗力の蓄積による病気の予防を目的としたまだ病気ではないが健康ではない「未病」という独自の概念があります。

東洋医学の診断法のひとつに「四診」がありますが、その中には顔の表情や外見という外見的特徴から体の状態を把握する「望診」があります。その中でも舌診は、舌の状態から身体の状態を把握し、非侵襲的に高い精度で不調箇所を発見することができます。数千年前から中国の医学者は、舌の色や形、質感などを見て患者の健康状態を判断しています。

しかし、このような診断は、医師の経験に基づくところが大きく、主観的な面があるため、見知らぬ人に診断方法を広めることは困難です。このような背景から、舌の画像を蓄積し、深層学習を用いて特徴を抽出することで、診断方法を簡便化することが注目されています。

従来の手法の問題点

これまで、色、形、テクスチャなどの単一の特徴に基づいたモデルが数多く提案され、成果を上げてきましたが、それらは低レベルの特徴しか利用しておらず、ある程度の表現力を得ることは困難でした。特に、舌画像の異常検知の場合、高い性能を得るためには、画像全体の特徴が必要となります。したがって、舌画像の異常を検出する場合には、多面的で包括的な特徴を抽出し、それらの特徴を高精度に統合するアプローチが有効であると考えられる。先行研究-PCANetでは、このような複雑な特徴を舌画像から抽出しました。これは、PCAアルゴリズムとCNNをベースにしたもので、さまざまなデータやタスクに対応でき、微調整のためのパラメータもほとんど必要ありません。さらに、機械学習の分類アルゴリズムと組み合わせることで、分類タスクにおいて優れた性能を発揮することが報告されています。また、K-nearest neighbor(KNN)、SVM、Random Forest(RF)といった機械学習の分類アルゴリズムと組み合わせることで、優れた性能を発揮することが報告されています。

一方でこの手法は「データ処理の冗長性」と「偏ったサンプルを扱う際の不正確さ」という2つの問題がありました。前者については、PCAの性質上、固有値が肥大化する傾向があり、複雑な特徴マップの中でデータの冗長性が生じてしまいます。また、PCANetは、サンプルの分布バランスが良く、データセット内のサンプル数が多いことを前提としているため、不均衡なサンプルにはうまく対応できない可能性があります。

本研究の目的

本研究ではこれらの問題を解決し、舌画像から適切な複合全体特徴を抽出するCHDNetを提案しています。これは教師なしの臨床データから有用な特徴量を学習し、得られた特徴量を用いて、患者の健康状態を正常と異常に分ける方法を学習する教師付き学習モデルです。

正常な舌画像と異常な舌画像の特徴表現を探索するこの提案手法は、非線形変換、マルチスケール特徴分析、高分散、局所正規化という4つの重要な要素を用いています。この方法は歪んだ分布を持つ健康状態を予測するためのロバストな特徴表現を提供することができます。

手法

提案手法

各画像について、画像から背景を取り除き、舌体を抽出し、CHDNetを適用して、図1の正常な舌体と異常な舌体の特徴を学習しました。そして画像をある身長と体重に合わせて正規化しました。

その後、舌の画像を学習とテストに分け、畳み込みカーネルを学習させて特徴表現を生成させて、舌のサンプルを正常と異常に分類しました。k-foldsクロスバリデーションで評価され、対応するk回のラウンドで得られた結果を平均して得られました。

この提案には、次の4つの重要な要素があります。高分散処理により、各特徴量マップの特徴量が冗長性なく分散する特性を実現しています。ローカルレスポンスの正規化、高分散化の処理後、異なる特徴マップの同じ位置にある特徴は、まだ冗長性があります。これにより、この問題を解決することができます。

非線形変換層、主成分分析は線形分類を主眼としているため、冗長性のために精度が低下するという問題があります。特に不均衡なデータの異常検出用の特徴量として使用する場合には、この問題が発生します。そこでこの問題を解決するために、非線形解析を導入し、より精度の高い特徴抽出を行うのが、マルチスケール特徴解析です。また変形への対応力を高めるために、高分散化と局所的な応答の正規化の前にマルチスケール特徴解析を導入しました。

CHDNetは3つのコンポーネントで構成されています。CHDNetは図2に示すように、PCAフィルタの畳み込み層、非線形変換層、および特徴プーリング層の3つのコンポーネントで構成されています。

非線形変換

この層では従来の一括変換処理とPCA変換に加えて、非線形変換を行うことで、PCAによる分類で生じる冗長性を低減しています。このPCA処理では、下記式の線形変換における検出精度の粗さを解消するために、各画像に非線形性を適用しています。

ここでTは画像、C1は第1主成分、a,εはハイパーパラメータである。

また特徴量の畳み込み層にtanh(x)を用いているため、負の値が存在し、視覚系の原理と矛盾します。そこで、各畳み込み層の後に非線形変換層を加えることで、この負の値をノイズとして扱う効果があります。

フィーチャープーリング

この層では、前述の非線形変換以外の機能として、「ヒストグラム-画素を[0,255]の整数に変換」「マルチスケール特徴分析-各ヒストグラムの画像を解像度ごとに集計し、特徴としてまとめる」「高分散-縮退状態を防ぎ、特徴間の競争を強める」「局所応答正規化-異なる特徴マップの同じ位置にある各特徴間で正規化を行い、冗長性を防ぐ」という機能を備えています。このような一連の処理を入力画像に対して行うことで、従来の手法よりも正常・異常な特徴が際立つようになった。変換式は論文を参照してください。

実験の準備

胃炎患者267名、健康なボランティア48名、合計315名の画像を病院から収集。特徴抽出ステップの学習段階では、画像全体の約26.67%に相当する40人の正常者と44人の異常者を無作為に選んで学習セットとし、畳み込みカーネルの学習とパラメータの決定に使用しています。そして、学習したカーネルとパラメータを用いて、残りの231サンプルについて特徴量を抽出しました。結果は、5回のクロスバリデーションを10回行って、平均化したものです。提案手法と従来手法の性能を評価するために、いくつかの評価指標(精度・感度・特異性・正確さ・回収率)を用いています。

結果

従来方式との比較

本評価の目的は、従来の手法であるPCANetと比較して、本提案が性能を向上させているかどうかを明らかにすることです。本評価では、分類器としてLIBLINEAR SVMを使用しました。

その結果提案手法である高分散化(HD)、局所応答正規化(LRN)、マルチスケール特徴解析(MFA)、非線形変換(NT)の組み合わせにより、PCANetと比較して認識率が向上することが確認されました。84.77%から91.44% (約7%) に向上しました。またサンプルの不均衡という観点から見ると、本提案は感度をわずかに低下させたものの、特異性を向上させる結果になっています。

分類器の比較

この評価の目的は、どの分類器が異常画像の検出に最も優れた性能を発揮したかを明らかにすることです。

LIBLINEAR SVMを用いたCHDNetの性能を、他の分類器と比較しました。LDA, KNN, CART, GBDT, RFを分類器としてLIBSVMを使用する代わりに、LIBLINEAR SVMを使用しました-LIBLINEAR SVMは、サンプル数が特徴数よりもはるかに少ない場合、LIBSVMよりも優れた性能を発揮します。サンプル数が315で、各サンプルの特徴量が43008だったので、LIBLINEAR SVMの方が性能が良いことが示唆されました。

精度、特異性、正確性、リコール、F1スコアの観点から、LIBLINEAR SVMの総合的な性能は、下記表の6つの分類器の中で最も高く、精度はLDAよりも91.14%-6.24%高くなっています。また、距離ベースのモデルや木構造モデルと比較して、特異度は3%から25%に向上しました。この比較から、最適なパラメータを持つSVM分類器が他の手法よりも優れていることがわかりました。LIBLINEAR SVM法では、性能精度が91.14%に向上し、他の分類器の中で最も優れていました。

考察

舌画像は、東洋医学の診断基準の一つであり、非侵襲的に身体全体の状態を把握し、身体の不調を特定できる可能性がありました。しかし従来のモデルでは、冗長性があり、偏ったサンプルに対する検出精度が低いという問題があります(特に異常画像の検出において)。本研究では、高分散のモデルであるCHDNetを用いて画像異常検出における適切な特徴を抽出するモデルを提案しています。評価の結果このモデルは従来のモデルに比べて高い性能を持つことがわかりました。

しかしここからは私が考える考察になります。

まず、分類器としてLinear SVMを採用した理由が不明です。SVMは通常、RBFカーネルを使用しますが、膨大な量のデータを処理する際に高速な計算が必要な場合はLinearを使用します。著者らは、特徴量の数がサンプル数よりもはるかに多かったことが理由だと説明していますが、その結果線形の精度はSVM-RBFカーネルの精度よりも高いことがわかりました。しかし、この結果の理由は語られておらず、その理由もはっきりしませんでした。

次に提案手法に特有の非線形変換を導入した理由として、Convolution層のtanh(x)に負の値が存在することが挙げられていますが、例えばReLU活性化関数を用いるなど、他の方法が検討されたかどうかは不明です。画像解析領域の場合、活性化関数を使って負の値をノイズ処理することは考えられます。画像解析分野の場合、活性化関数：ReLUを用いて負の値をノイズ処理することが考えられるが、それを用いない(導入できない)理由は明示されなかった。ReLU関数よりも今回のような非線形変換の方が意味があるという点を明記すべきではないかと感じました。

結論

本論文では、教師なし特徴学習法を用いた舌画像分類の新しいフレームワークを提案しています。これは、CHDNetを用いて特徴量を学習することで重み付きLIBLINEAR SVM分類器を学習し、異常患者を検出するものです。実験の結果、我々の新しいフレームワークと重み付きLIBLINEAR SVMの組み合わせは、他の手法と比較して最も優れた予測性能を示す結果となりました。